iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 15
0
AI & Data

Python零基礎到Kaggle 系列 第 15

Python零基礎到kaggle-Day14

  • 分享至 

  • xImage
  •  

今日目標

特徵工程,建模,訓練,預測Part2
回答三個問題:
1.這邊要思考一下這麼多缺值每個都需要填補,還是該針對對OOB有幫助的特徵填補?
2.又該怎麼填補才是好的?
3.特徵就只有看到的才重要,還是我們可以組合出更重要的特徵?

看完文章您將學到什麼

學習如何思考機器學習問題,繼續探究隱藏特徵

內文

先針對三個問題回答:
1.並非每個值都需要填補,能提高OOB,上傳上Kaggle看到比較好的分數才是重點
2.如果缺值不多,可以先找其他特徵,用類似協同處理的方式填補,缺值多的話要考慮用模型預測缺失值或分群處理
3.有時候我們會認為某個特徵很重要,但上傳分數不佳,就該考慮一下該特徵要組合,捨棄,還是做其他處理
知道這些之後我們來思考一下隱藏特徵,找出資料中關聯性,可以從相同票根找乘客間關係

程式撰寫

程式部分一樣在Day16一起補上

反思回顧

Day10我們歸納幾個可能有用的特徵,經過昨天討論:
pclass: 船票等級
ticket: 船票編號
fare: 票價
cabin: 船艙號碼
embarked: 登陸港口[c,q,s]
sibsp: 平輩數目sibling兄弟,spouses夫妻
parch: 長晚輩數目parent,children
船票隱含著姓名(sex)、票價(pclass,fare,fare,cabin,embarkrd)、艙位(cabin)、家庭人數(sibsp,parch)幾個特徵
剩下:
sex: 性別: 前天使用到了
survival: 這個是預測目標,最後會用到
age: 年齡

所以還剩age可以分析

參考資料

https://medium.com/@yulongtsai/https-medium-com-yulongtsai-titanic-top3-8e64741cc11f


上一篇
Python零基礎到kaggle-Day13
下一篇
Python零基礎到kaggle-Day15
系列文
Python零基礎到Kaggle 31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言